由于学习过程中缺乏安全保证,在网络物理系统中使用加固学习(RL)是具有挑战性的。尽管有各种建议在学习过程中减少不希望的行为,但这些技术中的大多数都需要先前的系统知识,并且其适用性是有限的。本文旨在减少学习过程中不希望的行为,而无需任何先前的系统知识。我们提出动态屏蔽:基于自动机学习的基于模型的安全RL技术的扩展。动态屏蔽技术使用RPNI算法的变体和RL平行构建近似系统模型,并由于学习模型构建的屏蔽而抑制了不希望的探索。通过这种组合,在代理商体验他们之前,可以预见潜在的不安全行动。实验表明,我们的动态盾牌可显着减少训练过程中不希望的事件的数量。
translated by 谷歌翻译
我们引入了责任感敏感安全性(RSS)的目标延长,这是一种基于规则的自动驾驶系统安全保证(ADS)的方法。制定RSS规则保证目标实现 - 除了原始RSS中的避免碰撞外,还需要进行长时间的操纵序列的复杂计划。为了应对复杂性,我们基于程序逻辑引入了一个构图推理框架,其中可以系统地为较小的子赛车制定RSS规则,并将它们组合起来以获取用于较大场景的RSS规则。作为框架的基础,我们介绍了一个程序逻辑DFHL,可满足连续的动态和安全条件。我们的框架介绍了基于DFHL的工作流程,用于导出目标感知RSS规则;我们也讨论其软件支持。我们在安全体系结构中使用RSS规则进行了实验评估。它的结果表明,目标感知RSS确实有效地实现了避免碰撞和目标实现目标。
translated by 谷歌翻译